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Beschreibung 

Spracherkenner und Betriebsverf ahren fur einen solchen 

5 Die Erfindung betrifft einen Spracherkenner nach dem Oberbe- 
griff des Anspruchs 1 sowie ein Betriebsverf ahren fur einen 
solchen. 

Nachdem sich die Spracherkennung bei der Texteingabe in auf 

10 PCs laufenden Biiroapplikationen seit Jahren ein festes und 

stetig wachsendes Anwendungsgebiet gesichert hat, dringt sie 
zunehmend auch in die Steuerung technischer Gerate ein. So- 
wohl bei hochgradig miniaturisierten und zugleich computeri- 
sierten handgehaltenen elektronischen Geraten - insbesondere 

15 Mobiltelef onen und PDAs - als auch bei technischen Geraten, 

deren Bedienung moglichst wenig Aufmerksamkeit und Konzentra- 
tion des Bedieners binden sollen - wie der verschiedenen 
technischen Gerate in einem fahrenden Auto - kann diese Art 
der Spracherkennung, mit darauf aufbauender Sprachsteuerung, 

20 sinnvolle Einsatzmoglichkeiten finden. Bei der erstgenannten 
Art von Geraten ist namlich die fur Bedienvorgange verfugbare 
Flache so klein geworden, daft sich die Vielzahl moglicher 
Funktionen durch herkommliche Tastatur- oder TouchScreen- 
Eingaben nur noch sehr unbequem (und fur Persdnen mit 

25 schlechtem Sehvermogen nahezu uberhaupt nicht mehr) realisie- 
ren lafit . Bei Einsatzf eldern, in denen die Aufmerksamkeit des 
Benutzers auf andere Dinge (z. B. den Stralienverkehr ) gerich- 
tet bleiben mufi, erbringt die Einfuhrung der Sprachsteuerung 
neben der Komf ortsteigerung auch einen wesentlichen Sicher- 

30 heitszuwachs. 

In der Spracherkennung wird ein Lexikon mit den zu erkennen- 
den Wortern benotigt. Diese werden im Falle der phonembasier- 
ten Spracherkennung mittels einem Text-to-Phonem-Verf ahren in 
35 eine phonetische Umschrift uberfiihrt und im Vokabular abge- 
legt. Wahrend des Erkennungsvorgangs erfolgt im sogenannten 
Viterbi-Algorithmus eine Suche nach dem besten Pfad durch die 
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im Vokabular enthaltenen Phonemfolgen. Einzelheiten zu den 
etablierten Spracherkennungsalgorithmen finden sich in der 
einschlagigen Fachliteratur . 

5 Weitgehend computerisierte technische Gerate der oben ange- 
sprochenen Art (PDAs, Handheld-PCs, Mobiltelef one, Kfz-Audio- 
anlagen, Kf z-Borcomputer etc.) haben vielfach an PC-Bedien- 
oberflachen angelehnte Strukturen der Benutzerschnittstellen 
bzw. MMIs. Es ist eine Mehrzahl von Applikationen instal- 
10 liert, die auf geeignete Weise - und bei komplexeren Geraten 
auch in einer bestimmten, logischen hierarchischen Unterord- 
nung angesteuert werden miissen. Bei herkommlichen Geraten 
dieser Art wird hierzu eine Menusteuerung angeboten, die vom 
Benutzer durch Sof tkey-Eingaben ausgefuhrt wird. 

15 

Bei der Applikationswahl per Spracheingabe befinden sich im 
Lexikon die Programmnamen der verfugbaren Applikationen. Nach 
der Erkennung eines Namens wird das jeweilige Programm ausge- 
fuhrt bzw. die Applikation gestartet. Dazu mussen die Pro- 
20 grainiTinamen und die Programmpf ade in einem geeigneten Format 
abgespeichert sein . 

Gemali dem Stand der Technik werden die einzelnen Programmna- 
men mit den entsprechenden Erkennungsresultaten (den Worten 
25 des Lexikons) fest verdrahtet. Dies kann einerseits in einer 
zusatzlichen Datei festgelegt werden oder andererseits fest 
im Quellcode des Programms definiert sein. Beide Methoden ha- 
ben entscheidende Nachteile, welche im folgenden beschrieben 
werden : 

30 

- Beim Arbeiten mit einer zusatzlichen Datei besteht das Pro- 
blem, dafi diese von einem Benutzer einsehbar ist und demzu- 
folge auch verandert werden kann. Auch binare Formate oder 
schreibgeschutzte Dateien bieten keinen wirksamen Schutz vor 
35 Veranderungen. Dadurch konnen Diskrepanzen zwischen dem ver- 
wendeten Vokabular und der Wortliste bzw. Programmliste ent- 
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stehen. Dies hat auch zur Folge, da!3 die Applikation mogli- 
cherweise falsch reagiert. 

- Bei der Festlegung der als Steuerbef ehle wirkenden sprach- 
5 lichen Aufterungen im Quellcode kann das Vokabular auf einfa- 
chem Wege nicht weiter geandert werden. Es mufite der 
Quellcode jedes Mai neu ubersetzt und ausgeliefert werden, 
sobald Anderungen der Programmnamen auftreten. 

10 - Der entscheidende Nachteil des bisherigen Vorgehens liegt 

in der fehlenden bzw. unzureichenden Erweiterbarkeit des Sys- 
tems. Bisher ist es dem Benutzer nicht . mdglich, seine eigenen 
Kommandos oder Anwendungen in die automatische Spracherken- 
nung mit aufzunehmen - jedenfalls nicht ohne die Gefahr einer 

15 Storung der ursprunglich programmierten Konf iguration des 
Spracherkenners . 

Der Erfindung liegt daher die Aufgabe der Bereitstellung ei- 
nes verbesserten Spracherkenners und Verfahrens zum Betrieb 
20 eines solchen zugrunde, mit denen dieser zur Berucksichtigung 
von eigenen Steuerbef ehlen oder Anwendungen des Nutzers fle- 
xibler konfiguriert werden kann. 

Diese Aufgabe wird in ihrem Vorrichtungsaspekt durch einen 
2 5 Spracherkenner mit den Merkmalen des Anspruchs 1 und in ihrem 
Verf ahrensaspekt durch ein Betriebsverf ahren mit den Merkma- 
len des Anspruchs 6 gelost. 

Die Erfindung schlieflt den grundlegenden Gedanken ein, zur 
30 Sprachsteuerung von Applikationen - bzw. zu einer entspre- 
chenden Handhabung von Dateien - eine mit Links aufgebaute 
Benutzeroberf lache bereitzustellen . Das Organisationsprinzip 
der Links ermoglicht ohne weiteres einen strukturierten Auf- 
ruf von Programmen bzw. Dateien in unterschiedlichen Hierar- 
35 chieebenen, ohne dali a priori eine starre Zuordnung definiert 
und programmiert werden mull . 
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Die Liste der zu erkennenden Worter (das Lexikon) wird durch 
den Inhalt eines bestimmten Dateiverzeichnisses bestimmt, in 
welchem Links (Verknupf ungen) zu den vorhandenen Programmer! 
bzw. Dateien enthalten sind. Der Name des Links gibt das zu 
5 erkennende Wort an, und das Programm bzw. die Datei, auf die 
dieser Link zeigt, gibt die auszuf uhrende Aktion an. Bei der 
Umsetzung des Namens sollte darauf geachtet werden, daft nur 
der Teilstring vor dem ersten Punkt als Kommando verwendet 
wird. Beim Start des Erkennerprogramms wird das Vokabular er- 
10 zeugt. So kann flexibel auf Anderungen der Applikations- bzw. 
Dateistruktur reagiert werden. Sobald ein Wort erkannt wird, 
wird der entsprechende Link aktiviert und die gewunschte Ak- 
tion ausgefiihrt. 

15 Vorteile gegenuber dem bisherigen Verfahren sind in der Fle- 
xibility, was Worte und Aktionen betrifft, und der einfachen 
Erstellung und Veranderung eines komplexen Erkennerwortschat- 
zes zu sehen. Das Hinzufugen von neuen Kommandos zum bisheri- 
gen Wortschatz kann einfach und in gewohnter Weise durchge- 

20 fuhrt werden. Im Dateiverzeichnis muii lediglich eine Verknup- 
fung zum gewunschten Programm oder der Datei erstellt werden. 
Unter Windows z. B. ist das Erstellen eins Links einfach iiber 
das Kontextmenu moglich. 

25 Damit wird ein weitere Vorteil klar: Da das Filesystem die 

Verwaltung von Kommandos und Aktionen (Name und Ziel der Ver- 
kniipf ung) ubernimmt, ist kein zusatzliches Programm zur Ver- 
waltung des Wortschatzes notig. Soil ein Kommando geloscht 
werden, wird einfach der Link geloscht. 

30 

Da moderne Betriebssysteme auch Links auf Dateien erlauben, 
konnen Dokumente ebenfalls per Sprachkommando geoffnet wer- 
den . 

35 In einer bevorzugten Ausfuhrung umfaftt das Dateiverzeichnis 

eine Mehrzahl von Unterverzeichnissen in mindestens einer un- 
tergeordneten Hierarchieebene, wobei die Verzeichnisnamen ein 
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erstes und gegebenenf alls weitere, hierarchisch untergeordne- 
te aktive Teilvokabulare des Spracherkenners bilden. 

Durch die Verwendung von Unterverzeichnissen im Dateiver- 
5 zeichnis lassen sich auf einfachste Weise strukturierte 

Sprachauf rufe von Programmen und Dateien erzeugen. So konnen 
z. B. alle Links zu Musikstiicken in ein Unterverzeichnis "Mu- 
sik" abgelegt werden. In der ersten Stufe der Erkennung be- 
findet sich das Wort "Musik" im aktiven Vokabular. Wird die- 
10 ses erkannt, wird das Vokabular gewechselt (z. B. per Langua- 
ge Model) , die im Unterverzeichnis "Musik" enthaltenen Links 
stehen nun im aktiven Vokabular. 

Insbesondere ist jedem Programm bzw. jeder Datei aus einem 
15 Unterverzeichnis ein zusammenhangender , mehrgliedriger 

Sprachbefehl zugeordnet, der die Namen der zu dem Programm 
bzw. der Datei fuhrenden Links des Dateiverzeichnisses und 
jedes nachgeordneten Unterverzeichnisses umf afit . 

20 Mit dieser Methode lassen sich in einfachster Weise komplexe 
Sprachkommandos erstellen und editieren. Vorhandene Verzeich- 
nisse mit Verknupfungen, wie z. B. das Windows Startmenu, 
lassen sich nun einfach per Sprachsteuerung bedienen, da 
schon alle notigen Inf ormationen vorhanden sind. 

25 

Dieses Verfahren ist eine Weiterentwicklung von Verkniipfungen 
mit Programmen (Beispiel Windows PC) und den f estverdrahteten 
Spracherkennerressourcen. Hierbei wird durch Anlegen eines 
Links automatisch die Erkennerressource erstellt. D. h. da- 
30 nach kann sofort der Name des Links durch den Erkenner verar- 
beitet werden. 

Generell konnen beliebige Dateien und Programme, nachdem sie 
in das spezielle Verzeichnis kopiert wurden, per Sprachbefehl 
35 gestartet werden. Es ist also egal, ob es sich urn einen Mu- 
siktitel, eine c++Datei, ein Textdokument oder um ein Pro- 
gramm handelt. Durch das Abspeichern eines Links in dem spe- 
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ziellen Verzeichnis wird die Datei durch das eingestellte De- 
faultprogramm geoffnet. Beispiel: Ein Dokument mit der Endung 
.doc wird automatisch mit dem Programiti Word geoffnet (wie 
beim Doppelklick mit der Maus auf die Datei bei einer her- 
5 kommlichen PC-Eingabe) . 

Die oben erlauterten Aspekte der Erfindung stellen sich so- 
wohl als Vorrichtungsaspekt eines Spracherkenners wie auch 
als Aspekte des Betriebsverf ahrens eines solchen dar - zumal 
10 die Realisierung typischerweise in einer geeigneten Mischung 
aus Hard- und Sof twarekomponenten erfolgen wird. 

Nachfolgend sind zwei Arten, ein Wort in das Erkennerlexikon 
aufzunehmen, genannt: 

15 

(1) Aufnahme durch einen Programmauf ruf uber das Kontextmenu 
fur die gewunschte Anwendung. Hierbei enthalt das Kontextmenu 
zwei Programmauf rufe (Add und Remove) . Add fugt das entspre- 
chende Programm/die Datei hinzu und Remove zeigt die Liste 

20 der Programme/ Dateien an, welche aktuell durch Sprachwahl 
ausgewahlt werden konnen. 

(2) Kopieren des Link der gewunschten Anwendung in den spezi- 
ellen Ordner liber "drag 1 n ? drop" . Hierbei mufi, urn ein Programm 

25 zu entfernen, in das entsprechende Verzeichnis gewechselt und 
der gewunschte Link durch "Entfernen" aus dem Verzeichnis ge- 
loscht werden. 

Die Ausfiihrung der Erfindung ist nicht auf die oben beschrie- 
30 benen Beispiele und Aspekte beschrankt, sondern ebenso in ei- 
ner Vielzahl von Abwandlungen moglich, die im Rahmen fachge- 
malien Handelns liegen. 
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Patent anspruche 

1. Spracherkenner mit einem gespeicherten Vokabular von zu 
erkennenden Wortern zur Sprachsteuerung einer Mehrzahl von 

5 Programmen und/oder sonstigen Dateien, denen jeweils ein Wort 
des Vokabulars als Name zugeordnet ist, 
dadurch gekennzeichnet, daft 
in einem Dateiverzeichnis zu jedem Programm bzw. jeder Datei 
ein Link gespeichert ist, wobei die Namen der Links ein ers- 
10 tes aktives Teilvokabular des Spracherkenners bilden. 

2. Spracherkenner nach Anspruch 1, 

dadurch gekennzeichnet, daft 
die Namen der Links durch Sprachbef ehle gebildet sind und die 
15 Links Verknupf ungen zu Applikationsprogrammen definieren. 

3. Spracherkenner nach Anspruch 1, 

dadurch gekennzeichnet, daft 
die Namen der Links durch Sprachbef ehle gebildet sind und die 
20 Links Verknupf ungen zu Dokumenten, insbesondere Textdokumen- 
ten oder Sprach-, Musik- oder Videodateien, definieren. 

4. Spracherkenner nach einem der vorangehenden Anspruche, 
dadurch gekennzeichnet,' daft 

25 das Dateiverzeichnis eine Mehrzahl von Unterverzeichnissen in 
mindestens einer untergeordneten Hierarchieebene umfaftt, wo- 
bei die Namen der Unterverzeichnisse zusammen mit denen der 
Links ein erstes und gegebenenf alls weitere, hierarchisch un- 
tergeordnete aktive Teilvokabulare des Spracherkenners bil- 

30 den. 

5. Spracherkenner nach Anspruch 4, 

dadurch gekennzeichnet, daft 
jedem Programm bzw. jeder Datei aus einem Unterverzeichnis 
35 ein zusammenhangender, mehrgliedriger Sprachbefehl zugeordnet 
ist, der die Namen der zu dem Programm bzw. der Datei fuhren- 
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den Links des Dateiverzeichnisses und jedes nachgeordneten 
Onterver zeichnisses umf aJ3t . 

6. Betriebsverf ahren eines Spracherkenners nach einem der 
5 vorangehenden Anspruche, 

dadurch gekennzeichnet, dafi 
beim Start des Spracherkennerprogramms das aktuelle Vokabular 
erzeugt wird, welches wenigstens die Namen der Links des Da- 
teiverzeichnisses umf afit . 

10 

7. Betriebsverf ahren nach Anspruch 6, 
dadurch gekennzeichnet, dali 

die Administrierung des Vokabulars als Verwaltung des Datei- 
verzeichnisses und optional vorhandener Unterverzeichnisse, 
15 ohne zusatzliches Vokabular-Verwaltungsprogramm, erfolgt. 

8. Betriebsverf ahren nach Anspruch 6 oder 7, 
dadurch gekennzeichnet, daft 

zur Editierung zusammenhangender, mehrgliedriger Sprachbefeh- 
20 le unter dem Dateiverzeichnis Unterverzeichnisse in minde- 
stens einer untergeordneten Hierarchieebene angelegt werden 
und die Erkennung zusammenhangender, mehrgliedriger Sprachbe- 
fehle in einem mehrstufigen Erkennungsvorgang erfolgt, in 
dessen Ablauf von einem ersten in ein zweite's und gegebenen- 
25 falls weitere aktive Teilvokabulare gewechselt wird. 

9. Betriebsverf ahren nach einem der Anspruche 6 bis 8, 
dadurch gekennzeichnet, daft 

die Aufnahme neuer Worte in das Vokabular oder die Entfernung 
30 von Worten aus dem Vokabular durch einen Programmauf ruf uber 
ein an sich bekanntes Kontextmenu fur das betreffende Pro- 
gramm bzw. die betreffende Datei oder durch einen 
"drag'n'drop"-Ablauf erfolgt. 
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EPO-Internal , WPI Data, PAJ 



C. ALS WESENTUCH ANGESEHENE UNTERLAGEM 



Kategorte 0 Bezeichnung der Veroffentllchung, soweit erforderllch unter Angabe der In Betracht kommenden Teiie 



Betr. Anspruch Nr. 



US 6 243 680 Bl (GUPTA VISHWA NATH ET AL) 

5. Jun1 2001 (2001-06-05) 

Spalte 9, Zeile 47 -Spalte 10, Zeile 62 

US 5 873 064 A (RUBACK HARVEY M ET AL) 
16. Februar 1999 (1999-02-16) 
Spalte 3, Zeile 1 - Zeile 14 
Spalte 3, Zeile 31 - Zeile 43 
Spalte 8, Zeile 30 -Spalte 9, Zeile 61 

EP 0 984 354 A (IBM) 

8. Marz 2000 (2000-03-08) 

Spalte 2, Zeile 45 - Zeile 54 

US 5 890 122 A (HYSOM SHANNON SCOTT ET 
AL) 30. Marz 1999 (1999-03-30) 
Spalte 1, Zeile 19 - Zeile 37 
Spalte 4, Zeile 57 -Spalte 6, Zeile 63 
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Weitere Ver6ffentlichungen sind der Fortsetzung von Fetd C zu 
entnehmen 



Siehe Anhang PatentfamDie 



° Besondere Kategorlen von angegebenen Veroffentlichungen 

■A" Veroffentllchung, die den ailgemeinen Stand der TechnJk definlert, 

aber nicht als besonders bedeutsam anzusehen ist 
'E' filteres Dokument, das jedoch erst am oder nach dem intemationalen 
Anmeldedatum veroffentllcht worden 1st 
Veroffentllchung, die geelgnet Ist, elnen Prlorltatsanspruch zwelfelhaft er- 
scheinen zu lessen, oder durch die das Veroffentttchungsdatum einer 
anderen im Recherchenberlcht genannten Veroffentllchung belegt werden 
soil oder die aus einem anderen besonderen Grund angegeben ist (wie 
ausgefiihrt) 

"O" VetotfentHchung, die sich auf eine mUndHche Offenbarung, 

eine Benutzung, eine Aussteliung oder andere MaBnahmen bezieht 

"P" Verflffentllchung, die vor dem intemationalen Anmeldedatum, aber nach 
dam beansprucrtten Prioritatsdatum yerdtfenlMcht worden Ist 



T Spatere Veroffentlichung, die nach dem intemationalen Anmeldedatum 
oder dem Prioritatsdatum verfiffentlicht worden ist und mit der 
Anmeldung nicht kolfidiert, sondern nurzum Verstandnis des der 
Erfindung zugrundelfegenden Prinzips oder der Ihr zugrundeltegenden 
Theorle angegeben ist 

■X' Verotfentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann altein aufgrund dieser Verotfentlichung nicht ais neu oder auf 
erfmderlscher Tatigkeit beruhend betrachtet werden 

■Y' Ver6ffentlichungvon besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht als auf erfindertscher Tatlgkell beruhend betrachtet 
werden, wenn die Verdffentlichung mit elneroder mehreren anderen 
VerOffentlichungen dieser Kategorte in Verblndung gebracht wlrd und 
diese Verbindung fur einen Fachmann naheliegendlst 
Verdffentlichung, die Mltglied derselben Palentfamilie ist 
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Betr. Anspruch Nr. 



US 6 233 559 Bl (BALAKRISHNAN SREERAM) 

15. Mai 2001 (2001-05-15) 

Spalte 5, Zelle 62 -Spalte 6, Zelle 49 

"EASY NAVIGATE TASK LIST BY VOICE" 
IBM TECHNICAL DISCLOSURE BULLETIN, IBM 
CORP. NEW YORK, US, 

Bd. 40, Nr. 5, 1. Mai 1997 (1997-05-01), 
Selte 81 XP000723579 
ISSN: 0018-8689 
das ganze Dokument 
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